# 🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ![[datasets-check]]

<CourseFloatingBanner
    chapter={5}
    classNames="absolute z-10 right-0 top-0"
/>

🤗 Datasets library ကို ကောင်းကောင်း လေ့လာခဲ့ပြီးပါပြီ၊ ဒီအထိ ရောက်လာတဲ့အတွက် ဂုဏ်ယူပါတယ်။ ဒီအခန်းကနေ သင်ရရှိခဲ့တဲ့ ဗဟုသုတတွေနဲ့ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ပါလိမ့်မယ်။

-   Hugging Face Hub၊ သင့် laptop ဒါမှမဟုတ် သင့်ကုမ္ပဏီက remote server တစ်ခုကနေ dataset တွေကို load လုပ်ပါ။
-   `Dataset.map()` နဲ့ `Dataset.filter()` functions တွေကို ပေါင်းစပ်အသုံးပြုပြီး သင့် data တွေကို wrangle လုပ်ပါ။
-   `Dataset.set_format()` ကို အသုံးပြုပြီး Pandas နဲ့ NumPy လို data formats တွေကြား လျင်မြန်စွာ ပြောင်းလဲပါ။
-   သင့်ကိုယ်ပိုင် dataset ကို ဖန်တီးပြီး Hugging Face Hub ကို push လုပ်ပါ။
-   Transformer model ကို အသုံးပြုပြီး သင့် documents တွေကို embed လုပ်ကာ FAISS ကို အသုံးပြုပြီး semantic search engine တစ်ခုကို တည်ဆောက်ပါ။

[Chapter 7](/course/chapter7) မှာ၊ Transformer models တွေအတွက် အကောင်းဆုံးဖြစ်တဲ့ အဓိက NLP tasks တွေကို နက်နက်နဲနဲ လေ့လာရင်း ဒီအရာအားလုံးကို ကောင်းကောင်း အသုံးချသွားမှာပါ။ ရှေ့ကို ဆက်မသွားခင်၊ 🤗 Datasets အပေါ် သင်ရဲ့ ဗဟုသုတကို quick quiz တစ်ခုနဲ့ စစ်ဆေးကြည့်လိုက်ပါ။

## ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

*   **🤗 Datasets Library**: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
*   **Hugging Face Hub**: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
*   **Laptop**: သယ်ဆောင်ရလွယ်ကူသော ကိုယ်ပိုင်ကွန်ပျူတာ။
*   **Remote Server**: ကွန်ရက်တစ်ခုပေါ်တွင် ဝန်ဆောင်မှုများ သို့မဟုတ် အရင်းအမြစ်များကို ပံ့ပိုးပေးသော ကွန်ပျူတာ။
*   **Wrangle Data**: ကုန်ကြမ်းဒေတာ (raw data) များကို ပိုမိုအသုံးဝင်ပြီး သန့်ရှင်းသော ပုံစံသို့ ပြောင်းလဲရန်အတွက် လုပ်ဆောင်သော လုပ်ငန်းစဉ်များ။
*   **`Dataset.map()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။
*   **`Dataset.filter()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။
*   **Pandas**: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။
*   **NumPy**: Python programming language အတွက် numerical computing (ဂဏန်းတွက်ချက်မှု) အတွက် အသုံးပြုသော library။
*   **`Dataset.set_format()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ၏ output format (ဥပမာ- "pandas", "numpy", "torch", "tensorflow") ကို သတ်မှတ်ရန် အသုံးပြုသည်။
*   **Push to the Hub**: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။
*   **Embed Documents**: စာသား document များကို vector space အတွင်းရှိ ဂဏန်းဆိုင်ရာ ကိုယ်စားပြုမှုများ (embeddings) အဖြစ် ပြောင်းလဲခြင်း။ ၎င်းသည် document များကြား ဆင်တူမှုများကို တိုင်းတာနိုင်စေသည်။
*   **Transformer Model**: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။
*   **Semantic Search Engine**: စာလုံးများကို ကိုက်ညီမှု ရှာဖွေခြင်းထက် အဓိပ္ပာယ်ပေါ်မူတည်၍ ရှာဖွေနိုင်သော search engine။
*   **FAISS (Facebook AI Similarity Search)**: Facebook AI မှ ထုတ်လုပ်ထားသော library တစ်ခုဖြစ်ပြီး vector များကို မြန်ဆန်ထိရောက်စွာ ရှာဖွေခြင်းနှင့် grouping လုပ်ခြင်းအတွက် အသုံးပြုသည်။
*   **NLP Tasks (Natural Language Processing Tasks)**: ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
*   **Quick Quiz**: ဗဟုသုတကို လျင်မြန်စွာ စစ်ဆေးသည့် မေးခွန်းအနည်းငယ်။